Code generation models have achieved impressive performance. However, they tend to be brittle as slight edits to a prompt could lead to very different generations; these robustness properties, critical for user experience when deployed in real-life applications, are not well understood. Most existing works on robustness in text or code tasks have focused on classification, while robustness in generation tasks is an uncharted area and to date there is no comprehensive benchmark for robustness in code generation. In this paper, we propose ReCode, a comprehensive robustness evaluation benchmark for code generation models. We customize over 30 transformations specifically for code on docstrings, function and variable names, code syntax, and code format. They are carefully designed to be natural in real-life coding practice, preserve the original semantic meaning, and thus provide multifaceted assessments of a model's robustness performance. With human annotators, we verified that over 90% of the perturbed prompts do not alter the semantic meaning of the original prompt. In addition, we define robustness metrics for code generation models considering the worst-case behavior under each type of perturbation, taking advantage of the fact that executing the generated code can serve as objective evaluation. We demonstrate ReCode on SOTA models using HumanEval, MBPP, as well as function completion tasks derived from them. Interesting observations include: better robustness for CodeGen over InCoder and GPT-J; models are most sensitive to syntax perturbations; more challenging robustness evaluation on MBPP over HumanEval.
translated by 谷歌翻译
视觉变压器(VIT)已证明了各种与视觉相关的任务的最新性能。 VIT的成功激发了对手对VIT进行后门攻击。尽管传统CNN对后门攻击的脆弱性是众所周知的,但很少研究对VIT的后门攻击。与CNN相比,通过卷积捕获像素的本地特征,通过补丁和关注来提取全球上下文信息。 na \'ively Aftile CNN特异性的后门攻击对VIT只能产生低清洁的数据准确性和低攻击的成功率。在本文中,我们提出了隐形和实用的VIT特定于VIT特定的后门攻击$ TROJVIT $。而不是区域 - 而不是一个区域 - CNN特异性后门攻击使用的明智触发器,Trojvit生成了一个贴片触发器,旨在构建一个由一些脆弱的位置组成的特洛伊木马,该特洛伊特在vit的参数上通过贴片记忆中存储在DRAM内存中的参数,通过贴片显着排名和注意力靶标的损失。最小调整的参数更新以减少特洛伊木马的位数量。一旦攻击者通过翻转脆弱的位将特洛伊木马插入VIT模型中,VIT模型仍会用良性输入产生正常的推理精度。但是,当攻击者将触发触发嵌入到一个输入,VIT模型被迫将输入分类为预定义的目标类。我们表明,使用众所周知的Rowhammer在VIT模型上识别出较少的弱势位可以将模型转换为一个背面的模型。我们在各种VIT模型上对多个数据集进行了广泛的实验。 Trojvit可以通过在ImageNet上翻转$ 345 $的$ 345 $位来将$ 99.64 \%的测试图像分类为目标类。
translated by 谷歌翻译
未校准的光度立体声(UPS)由于未知光带来的固有歧义而具有挑战性。现有的解决方案通过将反射率明确关联到光条件或以监督方式解决光条件来减轻歧义。本文建立了光线线索和光估计之间的隐含关系,并以无监督的方式解决了UPS。关键思想是将反射率表示为四个神经内在字段,即\ ie,位置,光,镜头和阴影,基于神经光场与镜面反射和铸造阴影的光线线索隐含相关联。神经内在字段的无监督,关节优化可以不受训练数据偏差和累积误差,并完全利用所有观察到的像素值的UPS值。我们的方法在常规和具有挑战性的设置下,在公共和自我收集的数据集上获得了优于最先进的UPS方法的优势。该代码将很快发布。
translated by 谷歌翻译
创伤性脑损伤(TBI)患者的脑网络分析对于其意识水平评估和预后评估至关重要,这需要分割某些意识相关的大脑区域。但是,由于很难收集TBI患者的手动注释的MR扫描,因此很难构建TBI分割模型。数据增强技术可用于缓解数据稀缺问题。但是,常规数据增强策略(例如空间和强度转化)无法模仿创伤性大脑中的变形和病变,这限制了后续分割任务的性能。为了解决这些问题,我们提出了一种名为TBIGA的新型医学图像授课模型,以通过配对的脑标签图合成TBI MR扫描。我们的TBIGAN方法的主要优势在于,它可以同时生成TBI图像和相应的标签映射,这在以前的医学图像的先前涂上方法中尚未实现。我们首先按照粗到细节的方式在边缘信息的指导下生成成分的图像,然后将合成强度图像用作标签上填充的先验。此外,我们引入了基于注册的模板增强管道,以增加合成图像对的多样性并增强数据增强能力。实验结果表明,提出的TBIGAN方法可以产生具有高质量和有效标签图的足够合成的TBI图像,这可以大大改善与替代方案相比的2D和3D创伤性脑部分割性能。
translated by 谷歌翻译
不确定性是时间序列预测任务的重要考虑因素。在这项工作中,我们专门致力于量化流量预测的不确定性。为了实现这一目标,我们开发了深层时空的不确定性定量(DeepStuq),可以估计核心和认知不确定性。我们首先利用时空模型来对流量数据的复杂时空相关性进行建模。随后,开发了两个独立的次神经网络,以最大化异质对数可能性,以估计不确定性。为了估计认知不确定性,我们通过整合蒙特卡洛辍学和平均自适应重量的重新训练方法来结合变异推理和深层结合的优点。最后,我们提出了基于温度缩放的后处理校准方法,从而提高了模型的概括能力估计不确定性。在四个公共数据集上进行了广泛的实验,经验结果表明,就点预测和不确定性量化而言,所提出的方法优于最先进的方法。
translated by 谷歌翻译
利用在大规模图像文本对中预先训练的视觉和语言模型(VLM)成为开放式视觉识别的有希望的范式。在这项工作中,我们通过利用视频中自然存在的运动和音频来扩展这种范式。我们提出\ textbf {mov},这是\ textbf {m} ult-imodal \ textbf {o} pen- \ textbf {v} ocabulary视频分类的简单而有效的方法。在MOV中,我们直接使用具有最小修改的预训练VLM的视觉编码器来编码视频,光流和音频频谱图。我们设计一种跨模式融合机制来汇总免费的多模式信息。 Kinetics-700和VGGSOUND的实验表明,引入流量或音频模态会带来预先训练的VLM和现有方法的大量性能增长。具体而言,MOV极大地提高了基础类别的准确性,而在新颖的课程上则更好地概括了。 MOV在UCF和HMDB零摄像视频分类基准上实现了最新结果,从而极大地超过了基于VLMS的传统零摄像方法和最新方法。代码和模型将发布。
translated by 谷歌翻译
节流是当今在线广告市场中最受欢迎的预算控制方法之一。当一个受预算受限的广告商雇用节流功能时,她可以在广告平台建议出价后选择是否参加拍卖。本文重点介绍了从理论观点重复的第二价格拍卖中的动态预算节流过程。潜在问题的一个重要特征是,广告商不知道进入市场时竞争最高的出价。为了模拟消除这种不确定性的困难,我们考虑了两种不同的信息结构。广告商可以通过全信息反馈获得每轮竞争最高的投标。同时,通过部分信息反馈,广告商只能在她参加的拍卖中获得最高竞争的出价。我们提出了OGD-CB算法,该算法涉及在线广告查询面临的同时分配学习和收入优化。在这两种情况下,我们都证明该算法保证了$ O(\ sqrt {t \ log t})$遗憾,概率$ 1- o(1/t)$相对于流体自适应节流基准。通过证明$ \ omega(\ sqrt {t})$的下限在最小的后悔中,即使是最佳的最佳选择,我们就建立了算法的近乎最佳性。最后,我们将节流的最佳流体最佳与起搏相提并论,这是另一种广泛采用的预算控制方法。这些基准的数值关系使我们对不同的在线算法进行预算管理的比较有了进一步的见解。
translated by 谷歌翻译
Context-aware decision support in the operating room can foster surgical safety and efficiency by leveraging real-time feedback from surgical workflow analysis. Most existing works recognize surgical activities at a coarse-grained level, such as phases, steps or events, leaving out fine-grained interaction details about the surgical activity; yet those are needed for more helpful AI assistance in the operating room. Recognizing surgical actions as triplets of <instrument, verb, target> combination delivers comprehensive details about the activities taking place in surgical videos. This paper presents CholecTriplet2021: an endoscopic vision challenge organized at MICCAI 2021 for the recognition of surgical action triplets in laparoscopic videos. The challenge granted private access to the large-scale CholecT50 dataset, which is annotated with action triplet information. In this paper, we present the challenge setup and assessment of the state-of-the-art deep learning methods proposed by the participants during the challenge. A total of 4 baseline methods from the challenge organizers and 19 new deep learning algorithms by competing teams are presented to recognize surgical action triplets directly from surgical videos, achieving mean average precision (mAP) ranging from 4.2% to 38.1%. This study also analyzes the significance of the results obtained by the presented approaches, performs a thorough methodological comparison between them, in-depth result analysis, and proposes a novel ensemble method for enhanced recognition. Our analysis shows that surgical workflow analysis is not yet solved, and also highlights interesting directions for future research on fine-grained surgical activity recognition which is of utmost importance for the development of AI in surgery.
translated by 谷歌翻译
最佳运输(OT)自然地出现在广泛的机器学习应用中,但可能经常成为计算瓶颈。最近,一行作品建议大致通过在低秩子空间中搜索\ emph {transport计划}来解决OT。然而,最佳运输计划通常不是低秩,这往往会产生大的近似误差。例如,当存在Monge的\ EMPH {Transport Map}时,运输计划是完整的排名。本文涉及具有足够精度和效率的OT距离的计算。提出了一种用于OT的新颖近似,其中运输计划可以分解成低级矩阵和稀疏矩阵的总和。理论上我们分析近似误差。然后设计增强拉格朗日方法以有效地计算运输计划。
translated by 谷歌翻译
分割是图像处理的基本操作。卷积操作遭受有限的接收领域,而全球建模是对分段任务的基础。在本文中,我们将图形卷积应用于分割任务,并提出改进的\ Texit {Laplacian}。与现有方法不同,我们的\ Textit {Laplacian}是数据相关的,我们介绍了两个注意力对角线矩阵来学习更好的顶点关系。另外,在执行基于图形的信息传播时,它利用了区域和边界信息。具体地,我们通过学习图表表示的关于不同类的边界意识区域 - 明智相关的模型和原因,其能够操纵沿着物体边界的空间增强的各个区域的长距离语义推理。我们的模型非常适合获得全局语义区域信息,同时也可以同时容纳局部空间边界特征。两种挑战数据集的实验表明,我们的方法优于最先进的方法在结肠镜检查中的息肉中的息肉和光盘和光学杯中的光盘和光学杯在彩色眼底图像上的分割。
translated by 谷歌翻译